从人类馈回(RLHF)中学习的强化学习是一种将大语模型与人类价值保持一致的广泛采用的方法。但是,RLHF依赖于经过有限数量的人类偏好数据训练的奖励模型,这可能导致预测不准确。结果,RLHF可能会产生与人类价值观未对准的输出。为了减轻此问题,我们为奖励合奏方法提供了奖励模型,可以做出更准确的谓词。使用基于大语模型的大型奖励模型可以是计算和资源廉价的,我们探索了效率的合奏方法,包括线性层集合和基于洛拉的合奏。经验上,我们通过结合奖励模式运行最佳n和近端政策优化,并验证我们的集合方法有助于提高RLHF输出的对齐性能。
主要关键词
![arxiv:2401.16635v3 [cs.lg] 2024年10月22日PDF文件第1页](/bimg/b/b0c7d58ea7eb69819bbbe9548973aceb5f89bf36.webp)
![arxiv:2401.16635v3 [cs.lg] 2024年10月22日PDF文件第2页](/bimg/2/280a6434a690c5fbbddca4a9d13f513ee0e49d5c.webp)
![arxiv:2401.16635v3 [cs.lg] 2024年10月22日PDF文件第3页](/bimg/2/270b392711f932e5ad300863def4bcb47260b192.webp)
![arxiv:2401.16635v3 [cs.lg] 2024年10月22日PDF文件第4页](/bimg/3/3c7dd6b6e0558f1b0aafff934d5ac49af498b4ac.webp)
![arxiv:2401.16635v3 [cs.lg] 2024年10月22日PDF文件第5页](/bimg/0/0bf8b0f82fa585f89775eb247603d9f3b76231bf.webp)
